大型語言模型(Large Language Model, LLM)是一種基於深度學習與自然語言處理的人工智慧模型,透過大規模語料庫的訓練,具備理解與生成自然語言的能力。
其核心技術多採用 Transformer 架構,透過 自注意力機制(Self-Attention) 有效捕捉上下文關係,使模型能夠在不同語境下產生連貫且語意合理的回應。
早期統計方法
最初的語言模型以 N-gram 等統計方法為主,但無法捕捉長距離的語意關聯。
RNN / LSTM 時期
深度學習興起後,循環神經網路(RNN)與長短期記憶網路(LSTM)改善了序列建模能力,但在長文本處理上仍有瓶頸。
2017 - Transformer 的提出
Google 發表論文 Attention Is All You Need,提出 Transformer 架構,能高效處理大規模語料,為後續 LLM 奠定基礎。
2018 - GPT 問世
OpenAI 發布 GPT(Generative Pre-trained Transformer),展示了預訓練與微調的巨大潛力。
2019 - BERT 的突破
Google 提出 BERT(Bidirectional Encoder Representations from Transformers),能同時考慮上下文雙向語境,推動自然語言理解任務的進步。
2020 以後 - 大型語言模型時代
LLM 是人工智慧領域的重要突破,不僅推動了人機互動的革新,也為 教育、醫療、法律、產業應用 帶來廣泛可能性,並將持續影響未來資訊處理與知識應用的方式。